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摘 要 解释 性 项 目 反 应 理论 模型 (Explanatory Item Response Theory Models, EIRTM) 是 指 基 于 广义 线性 混合 
模型 和 非 线 性 混合 模型 构建 的 项 目 反应 理论 (Jtem Response Theory, IRT) 模 型 。EIRTM 能 在 IRT 模型 的 基础 上 
直接 加 入 预测 变量 ， 从 而 解决 各 类 测量 问题 。 首 先 介绍 EIRTM 的 相关 概念 和 参数 估计 方法 ， 然 后 展示 如 何 使 
用 EIRTM 处 理 题目 位 置 效应 、 测 验 模式 效应 、 题 目 功能 差异 、 局 部 被 试 依赖 和 局 部 题目 依赖 ， 接 着 提供 实例 
对 EIRTM 的 使 用 进行 说 明 , 最 后 对 EIRTM 的 不 足 之 处 和 应 用 前 景 进 行 讨 论 。 
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1 引言 IRT 模型 的 基础 上 加 入 预测 变量 ， 在 刻画 被 试 和 
题目 间 关 系 的 基础 上 ， 进 一 步 解释 相关 变量 影响 ， 
因而 拓展 IRT 模型 的 应 用 范围 。EIRTM 之 所 以 习 
要 ， 主 要 有 以 下 几 个 方面 的 原因 : 
首先 ，EIRTM 摆脱 传统 IRT 模型 的 限制 ， 它 
不 仅 是 测量 模型 ， 而 且 被 称 为 解释 性 测量 
su measuremen?t) 模 型 。EIRTM 能 够 将 题 
目 特征 和 被 试 特征 纳入 模型 并 解释 作答 反应 如 何 
受到 这 些 变量 的 影响 , 所 以 EIRTM 可 用 于 处 理 各 
种 测量 准确 性 问题 : 比如 ,题目 位 置 效 应 (rem 
Position Effect, IPE)、 测 验 模式 效应 (Test Mode 
Effect, TME), #8 H DY 86 22 5 (Differential Item 
Functioning, DIF) VA K Java (Local Dependencies, 
LD) 等 等 。 

其 次 , EIRTM 提出 一 个 综合 的 模型 构建 观点 。 
现 有 的 IRT 模型 采用 不 同 的 术语 标注 和 建 模 方 法 ， 
使 得 研究 者 很 难 意识 到 IRT 模型 之 间 存 在 的 共性 
(Rabe-Hesketh & Skrondal, 2016)。 但 是 , 绝 大 部 分 
IRT 模型 实际 上 可 以 等 价 地 构建 为 GLMM 和 NLMM 
的 形式 (De Boeck & Wilson, 2004, 2016; Rijmen, 
收 稿 日 期 2018-06-07 Tuerlinckx, De Boeck, & Kuppens, 2003)。 男 外 ,， 
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LI Binet 和 Simon (1904) 的 开创 性 工作 为 起 点 ， 
项 目 反 应 理论 (ltem Response Theory, IRT) 经 过 百 
余年 发 展 , 已 广泛 用 于 题目 的 标定 与 分 析 、 被 试 
的 拟 合 与 评分 、 测 验 的 设计 以 及 大 规模 教育 评 
等 领域 中 (van der Linden, 2018)， 是 心理 与 教育 测 
量 领域 最 为 重要 的 分 析 方 法 之 一 。 虽 然 研 究 者 针 
对 作答 评分 、 测 验 维度 以 及 层级 数据 (hierarchical 
data) 等 实际 问题 提出 一 系列 不 同 的 模型 并 拓展 
IRT 的 应 用 情境 , 但 是 绝 大 部 分 IRT 模型 只 能 刻 
画 被 试 与 题目 之 间 的 关系 ,限制 了 IRT 模型 在 心 
理 与 教育 研究 中 的 应 用 。 

本 文 将 基于 广义 线性 混合 模型 (Generalized 
Linear Mixed Models, GLMM) 和 非 线 性 混合 模型 
(Nonlinear Mixed Models, NLMM) 构 建 的 IRT 模 型 ， 
定义 为 解释 性 项 目 反 应 理论 模型 (Explanatory IRT 
ee EIRTM; De Boeck & Wilson, 2004). 
EIRTM 是 一 个 综合 的 解释 性 模型 框架 ， 它 允许 在 
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广义 的 分 析 框 架 。 广 义 线性 模型 (Genrerajized Linear 
Models, GLM) 3% VA logit 回归 、probit 回归 和 基 


Hi (linear regression model): 
Yi = Pot BX; + Epi (1) 


本 线性 模型 (basic linear models) 为 代表 的 常用 回 
归 模 型 (Gill, 2000), 而 且 GLM 和 大 部 分 IRT 模型 
都 是 GLMM 和 NLMM 的 特例 (Stroup, 2012)。 因 
此 通过 引入 EIRTM 的 框架 , 研究 者 能 够 将 回归 模 
型 和 IRT 模型 涵盖 在 一 个 更 为 广义 的 分 析 框 架 之 
下 ， 从 而 形成 更 为 完备 的 统计 测量 观 。 


HP 代表 被 试 , i RAIE, A 为 截 距 ， 忆 为 斜 
率 ， 克 为 预测 变量 的 值 ，sw 为 残 差 。 GLMM 是 
线性 回归 模型 的 一 般 形 式 。 下 面 将 具体 介绍 
GLMM 及 NLMM。 
2.1 EIRTM 的 基石 : GLMM 和 NLMM 
在 预测 变量 与 观测 值 建立 连接 之 前 使 用 连接 


最 后 ,应 用 EIRTM 的 最 大 优势 在 于 对 预测 变 
量 的 直接 建 模 和 估计 ， 即 “一 步 法 ”。 虽 然 在 实际 应 
用 中 也 可 以 采用 “两 步 法 ”进行 分 析 ( 即 第 一 步 先 
使 用 IRT 模型 得 到 不 同 测验 情境 ?的 参数 估计 值 ; 
第 二 步 再 对 不 同情 境 得 到 的 参数 估计 值 进行 显著 
性 检验 ， 或 者 以 参数 估计 值 为 因 变 量 进行 回归 分 
析 ), 但 是 “一 步 法 ”要 优 于 “两 步 法 ”，(1)* 两 步 法 ” 
容易 低估 测量 误差 , 尤其 是 第 一 步 分 析 中 产生 的 
测量 误差 经 常会 被 忽视 ， 从 而 导致 犯 第 一 类 错误 
的 概率 增 大 ( 刘 红 云 ， 骆 方 ， 2008); (2) 相 比 于 事 
先 采 用 等 组 设计 或 事后 采用 多 组 比较 的 “两 步 法 ”， 
采用 “一 步 法 ”的 EIRTM 更 为 简便 、 也 能 处 理 更 复 
杂 的 情况 (Debeer & Janssen, 2013); (3) 使 用 
EIRTM 可 将 预测 变量 的 效应 与 题目 难度 、 被 试 能 
力 分 离 , 这 有 助 于 对 预测 变量 进行 分 析 和 解释 (县 
旭 刚 ， 陈 平 ， 张 组 斌 ， 何 引 红 , 2018)。 

综 上 ，EIRTM 提供 一 个 灵活 且 综 合 的 解释 性 
模型 框架 。 在 EIRTM 中 ,研究 者 可 以 自主 地 构建 
研究 所 需要 的 IRT 模型 ， 从 而 更 好 地 解释 数据 。 
鉴于 EIRTM 的 理论 意义 与 应 用 价值 ， 本文 将 简单 
介绍 EIRTM 的 基本 理论 并 着 重 介 绍 EIRTM 的 应 
用 情况 ， 以 期 能 够 帮助 读者 更 加 深入 地 了 解 和 使 
用 EIRTM。 本文 将 按 以 下 顺序 进行 组 织 : 第 2 节 概 
È EIRTM 的 基本 概念 以 及 参数 估计 方法 ; 第 3 节 介 
绍 如 何 使 用 EIRTM 解决 测量 准确 性 问题 ; 第 4 节 
将 提供 一 个 具体 例子 对 EIRTM 的 使 用 进行 说 明 ; 
第 5 节 讨 论 EIRTM 的 不 足 之 处 以 及 今后 的 研究 方向 。 


2 EIRTM 的 基本 概念 与 模型 参数 估计 


因为 GLMM 本 质 上 是 回归 模型 的 拓展 ， 所 以 
为 了 更 好 地 理解 GLMM， 先 简单 引入 线性 回归 模 


”不 同 的 测验 情境 是 指 不 同 的 题 本 、 不 同 的 被 试 群体 或 者 
不 同 的 测验 形式 等 等 , 本 质 上 就 是 IRT 研究 中 的 多 组 分 析 
(multiple group analysis), 


PRIA (link function) 进 行 转 换 的 模型 ， 即 GLM。 
GLM 实际 上 就 是 经 典 回归 模型 的 普遍 化 ,之 所 以 
称 为 “广义 (generalized)” 是 因为 连接 函数 可 以 任 
意 选 取 。 公 式 () 所 示 的 线性 回归 模型 即 用 线性 函 
数 连接 预测 变量 和 观察 值 ， 即 本 身 连 接 函 数 
(identity link function), WA GLM 中 还 包含 随机 
效应 (random effect), 那么 模型 就 被 称 为 GLMM 
(Stroup，2012)。 随 机 效应 是 指 预测 变量 的 效应 不 
是 一 个 常数 ， 而 是 来 源 于 一 个 概率 分 布 ， 具有 期 
望 和 方差 3 与 之 对 应 的 是 固定 效应 (jixed effect), 
是 指 预测 变量 的 效应 是 一 个 常数 , 没有 测量 误差 *。 
在 公式 (1) 中 , 截 距 By MBE B 都 是 固定 效应 。 
GLMM 由 三 个 部 分 组 成 (De Boeck & Wilson, 
2004): 
(1) 随机 成 分 (random component)， 即 观测 变 
量 及 其 期 望 的 分 布 函数 , 对 应 IRT 中 被 试 p 在 题目 i 
上 的 作答 反应 及 其 均值 wy 的 分 布 函 数 。 当 作答 
反应 为 二 分 时 ， 其 分 布 函 数 为 独立 的 伯 努 利 分 布 
(Bernoulli distribution), WN Y,; ~ Bernoulli(z,;) , 
其 中 2, 表示 被 试 p 在 题目 i 上 的 正确 作答 概率 
P(Y, =1) A. Upi = Tpi o 
(2) 连接 函数 ， 即 用 于 连接 观测 变量 的 期 望 
Tpi 和 系统 成 分 lpi > 记 为 7 pi = fink (Tp ) ， 其 中 
int (-) 表示 连接 函数 。 在 IRT 领域 中 ,可 以 使 用 
probit 连接 函数 和 logit 连接 函数 ， 它 们 分 别 对 应 
正 态 肩 形 模型 (normal-ogive models) RZ $i RE vi 


N 


”在 IRT 模 型 中 引入 随机 效应 看 似 不 常见 , 但 EM 算法 的 最 
大 边际 似 然 佑 计 (Maximum Marginal Likelihood Estimation 
with EM, MMLE/EM) 就 是 将 伴随 参数 (incidental parameter, 
即 能 力 参数 ) 视 为 随机 效应 (Bock & Aitkin, 1981; Bock & 
Lieberman, 1970)。 
4 这 些 概念 经 常用 于 多 层 线性 模型 (Hierarchical Linear 
Model, HLM) 中 。 本质 上 ， 随 机 效应 对 应 的 随机 系数 回归 方 
法 (random coefficients approach) 也 被 称 为 分 层 回 归 方 法 或 
多 水 平 回 归 方 法 (hierarchical or multilevel regression approach)。 
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FEA (logistic models) s 

(3) 系统 成 分 (systematic component)， 即 预测 
变量 的 线性 函数 ， 记 为 7w ,在 GLMM 中 ,预测 变 
量 可 以 分 为 两 类 , 具有 固定 效应 p, 的 预测 变量 
Xa 和 具有 随机 效应 9, 的 预测 变量 Z, : 


Ni = logit(z,:) = 加 - 


J 
YZ 7 
j=l 


其 中 i 对 应 题目 ,p 对 应 被 试 ; 9 和 J 分 别 表示 固定 
效应 A, 和 随机 效应 0, HABE, X, MZ, 为 预测 
变量 。 此 处 假设 Xy 为 题目 的 指示 变量 (indicator 
variable)， 即 题目 的 虚拟 编码 (dummy code) 变 量 ， 
4i=qgit, X, =1, 当 # q, Xy =0; Z; AH, 


iq 


< 
Xu (2) 


ql 


也 可 视 为 维度 的 指示 变量 。 记 0, =(0,0, 0y) ， 
有 0,~N(0,)， 即 9, 服从 均值 向 量 为 0、 协 方差 
矩阵 为 己 的 多 元 正 态 分 布 "。 在 GLMM 中 ，7,; 只 
由 线性 成 分 构成 ， 对 应 Rasch RAS, (ARTF 
包含 区 分 度 参数 的 IRT 模型 来 说 ， 还 包括 非 线性 
成 分 (参数 相 乘 )， 属 于 NLMM7。 因 此 , 通过 GLMM 
和 NLMM 构建 EIRTM， 就 能 从 更 一 般 的 视角 拓 
JE IRT 模型 ， 详 见 第 4 节 的 EIRTM 实例 部 分 。 
2.2 EIRTM 的 参数 估计 

EIRTM 的 参数 估计 方法 有 很 多 ,但 都 涉及 复 


Q 
' 公 式 C) 是 基于 IRT 模型 改写 的 ; (1) 此 处 Ý A Xa 对 应 是 


9=1 


Q 
E i 的 难度 2, (> Ar = B ), 即 p, =B。 此 表达 没有 截 
q=1 


距 ， 也 就 是 忽略 p 的 均值 By; (2) 另 一 种 常见 写法 是 
0w2y+ 》PBsXig， 其 中 的 Y BUX ig 可 以 理解 为 题目 
DY qq qd 

j=l q=1 q=1 


容易 度 (item easiness); (3) 还 有 一 种 写法 是 将 第 一 题 作为 
参照 题 , REJ By, FRA 0 开始 直到 4-1 R, mH. 
Bo + By = Bi» 这 种 写法 多 用 于 多 水 平 IRT 模型 。 
“ 据 此 , 公式 (2) 可 以 表示 成 更 简洁 的 矩阵 形式 : yp = 
X8+Z0，。 虽 然 矩 阵 形式 在 统计 领域 更 为 常见 ,但 考虑 到 
解释 的 便利 和 研究 的 实际 ， 本文 统 一 使 用 指示 变量 (虚拟 变 
量 ) 组 织 公式 。 
”其 实 也 可 以 说 , GLMM 是 NLMM 的 特例 (Rijmen et al, 
2003), 因为 NLMM 既 能 刻画 非 线性 关系 又 能 描述 线性 关系 。 


杂 的 统计 知识 ， 此 处 仅 做 简单 介绍 : (1) 全 似 然 分 
fi (full-likelihood analysis), BIX} EIRTM 的 边际 似 
SR pk tT BUA E (numerical approximation) V} 
求 得 估计 值 使 边际 似 然 函数 达到 最 大 值 。 此 类 方 
法 包括 高 斯 - 厄 尔 米 特 求 积 (Gauss-Hermite quadrature) 
与 蒙特 卡 罗 积 分 (Monte Carlo integration) Atk 
最 大 法 [对 应 的 统计 软件 ( 包 ) 为 SAS PROC NLMIXED 
(SAS Institute, 2015)、STATA 的 GLLAMM (Rabe- 
Hesketh, Skrondal, & Pickles, 2004) 和 HLM (Raudenbush, 
Bryk, Cheong, Congdon Jr, & Toit, 2011)] 以 及 使 用 
EM 算法 的 间接 最 大 法 [对 应 的 软件 有 MULTILOG 
(Thissen, 1991) 和 ConQuest (Adams, Wu, & Wilson, 
1988)]; (2) 线 性 分 析 近 似 (linearized analytical 
approximations), BIX} EIRTM 的 边际 似 然 函数 中 
含有 的 积分 求 近似 解 ， 包括 拉 普 拉 斯 近似 (Laplace 
approximation) 、 带 惩罚 的 拟 似 然 法 (Penalized 
Quasi-Likelihood Method，PQL) 和 边际 拟 似 然 法 
(Marginal Quasi-Likelihood Approach, MQL), 对 
应 的 软件 ( 包 ) 有 R 语言 的 1me4 (Bates, Machler, 
Bolker, & Walker, 2015), HLM 和 SAS PROC 
GLIMMIX (SAS Institute, 2015); (3) 贝 叶 斯 方法 ， 
即 采 用 马尔 科 夫 链 蒙 特 卡 洛 (Markov chain Monte 
Carlo, MCMC) 方 法 ,典型 的 分 析 软 件 有 OpenBUGS 
(Spiegelhalter, Thomas, Best, & Lunn, 2014)。 更 详 
细 的 算法 介绍 与 比较 可 以 参见 Bolker 等 (2009) 的 
目前 尚未 发 现 不 同方 法 得 到 的 估计 结果 之 间 
会 存在 显著 差异 。De Boeck 和 Wilson (2004) 对 6 
种 统计 软件 的 估计 结果 进行 比较 ， 发 现 差异 不 大 ， 
而 且 采 用 同一 类 估计 方法 的 软件 的 估计 结果 更 加 
接近 。Jeon, Rijmen 和 Rabe-Hesketh (2013) 基 于 模 
拟 数据 对 WinBUGS?, PROC NLMIXED GLLAMM 
以 及 含 逻 辑 斯 带 回归 节点 的 贝 叶 斯 网 络 (Bayesian 
Networks with Logistic Regression Nodes, BNL; Rijmen, 
2006) 进 行 比较 , 结果 发 现 : 不 同 软件 估计 的 结果 
相似 ， 差别 在 于 BNL 的 估计 速度 远 快 于 其 他 软 
件 。 另 外 , Jeon, Rijmen 和 Rabe-Hesketh (2014) 还 
在 BNL 的 基础 上 , FET Rif a AY FLIRT 包 。 总 
之 , 目前 用 于 分 析 EIRTM 的 软件 种 类 繁多 , 但 是 


8 上 文 所 述 的 OpenBUGS 是 WinBUGS 的 后 续 开源 版 本 ， 两 
者 几乎 相同 , FEIL https://www.mrc-bsu.cam.ac.uk/software/bugs/. 
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不 同 软件 估计 结果 接近 , 研究 者 可 以 根据 自己 的 PE 2 
需要 进行 选择 。 a ) 2 ea 
3 使 用 EIRTM 处 理 测量 准确 性 问题 其 中 9, 是 随机 效应 Ox ~N(0, o3, alls 表示 IPE. 


3.1 题目 位 置 效应 (Item Position Effect, IPE) 
IPE 是 指 同一 个 题目 在 不 同 测验 间 因 题目 位 
置 的 变化 而 导致 题目 参数 的 变化 ( 聂 旭 刚 等 人 ， 
2018). IPE 违背 了 IRT 的 参数 不 变性 (parameter 
使 得 基于 IRT 的 测验 公平 性 分 析 、 
计算 机 化 自 适应 测验 (Computerized Adaptive Testing, 
CAT) 以 及 和 矩 阵 抽样 设计 (matrix sampling design) 
等 重要 应 用 都 受到 影响 。 因 此 , 很 有 必要 对 IPE 
进行 检测 及 解释 。 
] 于 检测 IPE 的 EIRTM 可 以 分 为 三 类 ( 聂 旭 
刚 等 人 , 2018): 第 1 类 模型 记 为 模型 IPE-1 (Hohensinn, 
Kubinger, Reif, Schleich, & Khorramdel, 2011): 


eu Speer ) G) 


其 中 p 表示 被 试 , 1 表示 题目 (1=12…,7)，9 表示 
变量 (g=1,2,…,0), H O = 五 9 为 能 力 参数 ， 


invariance) 特 征 ， 


— 


此 时 , IPE 可 以 被 视 为 一 个 新 的 维度 ， 有 研究 者 将 
E fE H Z JI (persistence) R% Æ 2% J (examinee 
effort, Debeer, Buchholz, Hartig, & Janssen, 2014)。 
此 模型 假设 IPE 与 被 试 有 关 ， 即 不 同位 置 的 题目 
难度 受到 被 试 的 影响 (Weirich，Hecht，Penk， 
Roppelt, & Böhme, 2017)。 Debeer 和 Janssen (2013) 
对 上 述 三 类 模型 进行 比较 后 认为 第 三 类 模型 更 有 
优势 ， 即 将 IPE 解释 为 被 试 层面 的 属性 更 符合 实际 。 

IPE-1 假设 y 由 题目 难度 分 解 得 到 ,而 且 不 
同 题目 的 y 相同 。 本 质 上 ，y 是 预测 变量 Xi 的 固 
定 效应 : Xo 对 于 所 有 题目 都 取 1，y 就 是 所 有 题 
H IPE 的 均值 ,IPE-2 加 入 的 yy 是 基于 题目 的 随机 
效应 ,表示 不 同 题目 的 IPE 可 以 不 同 。IPE-3 加 入 
的 gx ， 则 是 基于 被 试 的 随机 效应 ， 它 表示 不 同 被 
试 的 IPE 可 以 不 同 。 其 实 ， 国 定 效 应 和 随机 效应 
的 选择 完全 基于 研究 者 的 需要 ， 类 似 于 “HLM 中 
设 定 斜率 和 截 距 是 固定 还 是 随机 ”。 如果 研究 者 认 
为 IPE 具有 跨 题目 一 致 性 ， 就 可 将 IPE 设 定 为 固 
定 效应 ; 如 果 PE 在 不 同 题目 上 不 同 ， 则 可 以 用 


8, ~N(0.0%, sy 为 指示 变量 ， 当 1=g 时 ，X =1， 
否则 取 0; Pr 如 前 文 所 述 ， 对 应 题目 难度 ; 


表示 的 是 下 a 此 时 y 为 固定 效应 ， 它 只 与 题目 
位 置 有关 ， 所 有 题目 在 同一 位 置 的 难度 变化 都 
相同 ?。 此 模型 本 质 上 是 对 题目 难度 进行 分 解 ， 从 
而 得 出 IPE。 

第 2 类 模型 记 为 模型 IPE-2 (Debeer & Janssen, 
2013): 


44] Sp a +7 (kl) ) (4) 


注意 此 处 y= yyy 被 定义 为 随机 效应 ，y/~ 
N(0,07,), 其余 参数 含义 同上 。 此 模型 假设 IPE 
受 题目 的 影响 ， 即 不 同 题 目 在 同一 位 置 上 的 难度 
变化 不 同 。 

第 3 类 模型 记 为 IPE-3 (Hartig & Buchholz, 
2012): 


”此 处 仅 假设 IPE 为 线性 变化 , 更 复杂 的 非 线性 情况 可 以 
表示 为 的 二 次 函数 等 (参见 Kang, 2014; Trendtel & Robitzsch, 
2018) 


个 概率 分 布 (随机 效应 ) 来 表示 IPE。 所 以 在 
EIRTM F, 设 定 效应 为 固定 或 随机 是 非常 灵活 
的 ; 通常 作为 固定 效应 处 理 的 题目 也 可 以 视 为 了 
机 效应 (De Boeck et al., 2011)， 这 等 于 带 误差 项 的 
线性 逻辑 斯 蒂 克 测验 模型 (Linear Logistic Test Models, 
LLTM; Janssen, 2016; Weirich, Hecht, & Böhme, 
2014). 
3.2 ”测验 模式 效应 (Test Mode Effect, TME) 
司 际 大 规模 测评 项 目 正 在 经 历 由 纸 笔 测验 
(Paper-Based Assessment, PBA) 形 式 向 计算 机 化 测 
(Computer-Based Assessment, CBA) 形 式 的 转变 。 
在 国际 学 生 能 力 评估 项 目 (Programme for International 
Student Assessment, PISA) 2015 的 技术 报告 中 
(OECD，2017a) 将 TME 定义 为 : 被 试 在 一 种 测验 
模式 (如 PBA) 中 的 表现 与 在 同一 个 测验 的 另 一 种 
测验 模式 (如 CBA) 中 的 表现 相 比 ， 出 现 的 功能 1 
差异 。TME 反映 的 是 同一 测验 在 不 同 测验 模式 下 
的 结果 不 可 比 问题 , 它 本 质 上 是 对 测量 不 变性 
(measurement invariance) 的 研究 。 

为 探究 TME 的 实际 影响 , PISA 2015 使 用 了 3 
个 EIRTM 模型 , 模型 1 记 为 TME-1: 


F! 
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2 2 
1 pim F [Seats | = , PaXia a OM iion (6) 
q=1 q=1 


其 中 i 代表 题目 (i=1,2,…,27 )， 当 =1…, 时 ， 表 
示 的 是 PBA 中 的 题目 ， 当 i= 了 +1,7+2,…,27 时 ， 
表示 的 是 与 前 7 道 题 相同 的 题目 ， 只 是 测验 形式 
变 成 CBA; 4 表示 变量 (g = 1,2,L,0, Q = 2D; 


Mpy 是 指示 变量 ， 当 ?> 了 时 Min =1， 否 则 取 
0， 即 Myy 是 不 同 测验 模式 的 虚拟 编码 变量 ; m 


i>l 


表示 模式 ，5, 即 TME; YX = a SOE, 
q=1 
表示 题目 区 分 度 ; HRBRS LAE. Bizi e 
{T+L7T+2…,27} ,于 是 根据 模型 有 pb, = 8), -6,,, 
且 假 设 wy = 0。 此 模型 表示 任意 PBA 中 的 题目 
转换 为 CBA 形式 后 ,题目 难度 都 受到 相同 的 
TME (6,, ) 影 响 , 但 题目 区 分 度 不 受 影响 。 
第 2 个 模型 记 为 TME-2 : 
71pi = 


2 2 2 (7) 
YX Op a ; /Ai a > Sn tin Xig 
q=l q=1 


q= 


其 中 65 变 为 5,;， 对 于 某 些 题目 而 言 ，5,; 可 能 为 
0， 即 不 同 测验 模式 的 难度 不 变 , 不 存在 TME; 有 
些 题目 的 5 则 不 为 零 ， 即 存在 TME。 其 余 参 数 
含义 同上 。 对 于 前 7 了 道 题目 而 言 ， 因为 Msn =0， 


Q 
所 以 > SniM gX =0， 于 是 前 7 道 题目 中 的 题 


g=1 
目 j 的 线性 成 分 为 ,= Qj(0, 一 Bj;); 对 于 后 7 道 
MAMA, AM, =1， 所 以 其 中 题目 j 的 线 
ERIAN Nym = Oj (Op — Bj +5 pj) 。 此 模型 假设 
PBA 中 的 题目 转换 为 CBA 形式 后 , 不 同 题目 具有 
不 同 的 TME。 

第 3 个 模型 记 为 TME-3: 


Q Q 
1 pim = 多 je T a) 7 
q=1 


4=1 


2 
Yeni IM sn Xs (8) 
gal 


其 中 om 是 男 一 个 斜率 参数 ， 称 为 模式 斜率 (mode 
slope), 反映 被 试 的 TME 在 不 同 题目 上 的 影响 不 
Fl; 0, 是 另 一 个 潜 变 量 , 表示 TME, 为 随机 效应 。 假 


设 两 个 随机 效应 不 相关 ， 即 cov(9,1,9,s)=0 .类似 
地 ,对 于 前 了 道 题目 而 言 ,其 中 题目 j 的 线性 成 分 为 
Nm = Qj (0w 一 Bi); 对 于 后 7 道 题目 而 言 ,其 中 题 
目 j 的 线性 成 分 为 ,= Qj (0p -8 ) + anO 此 
模型 假设 TME 是 基于 被 试 的 效应 ， 也 即 不 同 被 试 
具有 不 同 的 TME。 

综 上 , TME-1 和 TME-2 采用 基于 题目 的 固定 
效应 (6, 和 5, ) 表 示 TME， 而 TME-3 则 使 用 基于 
被 试 的 随机 效应 (9, ) 表 示 TME。 如 果 认 为 My 


是 不 同 测验 模式 的 分 组 变量 , 那么 可 以 更 准确 地 
将 0,, 定义 为 被 试 和 模式 交互 的 随机 效应 。 与 IPE 
模型 相 比 ， 建 构 TME 模型 的 思路 非常 类 似 :IPE-1 
和 TME-1 都 加 入 一 个 跨 题目 一 致 的 固定 效应 ; 而 
IPE-2 和 TME-2 都 是 从 题目 的 角度 出 发 ， 认 为 效 
应 跨 题 目 不 一 致 性 ， 只 不 过 IPE-2 定义 的 效应 是 
随机 效应 ,而 TME-2 定义 的 是 固定 效应 ; PE-3 和 
TME-3 则 都 是 从 被 试 的 角度 出 发 ， 认 为 模型 都 受 
到 基于 被 试 的 随机 效应 的 影响 。 

PISA 采用 真实 数据 对 上 述 三 个 模型 进行 比 
较 , 结果 发 现 : TME-3 的 相对 拟 合 指标 最 好 , TME-2 
的 结果 接近 TME-3, TME-1 的 拟 合 最 差 ; 综合 考虑 
模型 的 复杂 性 和 数据 拟 合 情况 , TME-2 的 表现 最 
优 。 基 于 TME-2 的 结果 还 有 : 绝 大 多 数 的 题目 满 
ERM at AN AS HE (strong measurement invariance), 
即 和 斜率 和 难度 参数 在 不 同 测验 模式 下 不 变 ; 部 分 
题目 满足 弱 测 量 不 变性 (weak measurement invariance), 
即 斜率 参数 不 变 、 难 度 参 数 发 生变 化 。 可 见 , CBA 
的 使 用 确实 会 对 评估 学 生成 绩 造 成 影响 (Cosgrove 
& Cartwright, 2014; Logan, 2015)。 值 得 注意 的 是 ， 
Jerrim (2016) 发 现 中 国 上 海 的 学 生 在 PISA 2015 出 
现 显 著 的 成 绩 降低 , 并 且 原 因 很 可 能 就 是 CBA 的 
使 用 。 无 独 有 偶 , 新 西 兰 教育 研究 委员 会 (New 
Zealand Council for Educational Research, NZCER) 
对 PBA 和 CBA 进行 比较 ,也 发 现 学 生成 绩 出 现 
显著 下 降 (Eyre, Berg, Mazengarb, & Lawes, 2017). 
总 之 , TME 的 存在 已 被 证 实 , 考虑 TME 相 比 不 考 
虑 修正 TME 能 够 更 好 地 提升 测验 质量 (Jerrim, 
Micklewright, Heine, Salzer, & McKeown, 2018)。 
3.3 ”题目 功能 差异 (Differential Item Functioning, 

DIF) 

DIF 是 指 具 有 相同 能 力 的 被 试 (组 ) 在 作答 相 
同 题目 时 出 现 的 功能 性 差异 ， 这 种 差异 是 由 被 试 


| 
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所 处 群体 的 不 同 而 造成 的 。 DIF 也 属于 测量 不 变性 问 
题 ， 反映 的 是 题目 受到 与 测验 无 关 因素 的 影响 。 
用 于 DIF 分 析 的 EIRTM 描述 如 下 ， 记 为 
DIF-1 (De Boeck et al., 2011): 


o Q 
ra OS loka E EAA O 
4=1 gal 


其 中 Coca 是 目标 组 (Jocal group) 和 参照 组 
(reference group) 的 总 效应 , 也 即 两 组 被 试 能 力 均 
值 之 差 ; g 表示 组 ，Z。 是 被 试 组 别 的 指示 变量 ， 当 
被 试 p 属于 参照 组 时 ，Z。 =0， 当 被 试 p 属于 目标 
“nt, Z, =l; 即 题 目 i 上 DIF 的 效应 量 ，6,, 本 
质 上 是 被 试 组 别 和 题目 的 交互 ， 而 且 6。 只 存在 
于 目标 组 作答 的 题目 上 ,因为 这 时 XX =1 且 
Z, =1; 其 余 参 数 含义 不 变 。 当 被 试 属于 目标 组 时 ， 
题目 j 的 线性 成 分 为 : 1p =O - Bp +S pca + Fig 3 


“pik p 属于 参照 组 时 ,， 题目 j 的 线性 成 分 为 : 
Np =a Ê; 号 
注意 此 模型 同时 加 入 两 个 固定 效应 : (1) 


© toca 用 于 控制 目标 组 和 参照 组 的 能 力 均值 差异 ， 
即 被 试 群体 间 的 真实 能 力 差 异 ，Osterlind 和 
Evenson (2009) 称 之 为 "影响 (imzpach”。 由 于 5pew 
基于 被 试 的 组 别 得 到 ,所 以 它 是 基于 被 试 的 固定 
效应 。 如 果 有 证 据 支 持 两 组 之 间 没 有 能 力 差异 或 
者 已 经 通过 匹配 等 手段 进行 控制 ， 则 可 以 移 除 此 
效应 ; (2) Sig 是 被 试 组 别 和 题目 交互 的 固定 效应 ， 
反映 题目 难度 在 组 别 上 的 变化 ,公式 (12) 假 定 参 照 
组 中 所 有 题目 都 可 能 存在 DIF (通过 指示 变量 Xy 
定义 ), 实际 上 也 可 以 自 定义 需要 估计 DIF 的 题目 
Q 
(如 果 不 需 要 估计 题目 了 的 DIF, WA SY 5,X,Z 


ig^ iq” p 


qui 
中 移 除 含 的 项 即 可 )。 如 何 选取 需要 估计 DIF 
的 题目 以 及 是 否 需要 将 有 DIF 嫌疑 的 题目 从 匹配 
标准 中 排除 ， 则 属于 纯化 (purification) 的 问题 。 

一 些 研 究 者 基于 贝 叶 斯 方法 估计 DIF-1 模型 ， 
此 称 之 为 整合 的 贝 叶 斯 DIF 模型 (Integrated 
Bayesian DIF models, IBDM), IBDM 的 估计 结果 
优 于 传统 的 DIF 方法 (Gamerman, Goncalves, & 
Soares, 2018)。 还 有 研究 将 此 类 DIF 模型 应 用 于 不 
同 的 情景 和 算法 中 ,， 侦 测 出 不 同 组 别 之 间 的 DIF 
效应 (Bechger & Maris, 2015; Tutz & Berger, 2016; 
Tutz & Schauberger，2015)。 总 之 , 虽然 此 类 DIF 


模型 的 应 用 情境 有 所 不 同 , 但 是 DIF-1 模型 最 大 
的 优势 就 是 能 够 自由 估计 来 自 不 同 组 别 ( 协 变量 ) 
的 DIF 效应 。 
3.4 ”局 部 依赖 (Local Dependence, LD) 

局 部 独立 性 (Local Independence, LI) 是 IRT 理 
论 的 基本 假设 之 一 , 与 LI 对 立 的 概念 是 LD。LD 
可 分 为 局 部 被 试 依赖 性 (Local Person Dependence, 
LPD) 和 局 部 题目 依赖 性 (Local Item Dependence, 
LID). LPD 是 指 在 给 定 被 试 能 力 时 , 被 试 在 不 同 
题目 的 作答 反应 之 间 存 在 相依 性 ; LID 指 题 目 参 
数 已 知 时 , 不 同 能 力 的 被 试 在 该 题目 上 的 作答 反 
应 间 存 在 相依 性 ( 詹 沛 达 ,， 王 文中 , 王立 君 , 2013)。 

在 IRT 领域 中 ,LPD 出 现 的 主要 原因 是 被 试 
FFA (Person Clustering Effect, PCE)。 选 取 的 
被 试 众 套 于 不 同 的 群体 ， 属 于 同一 群体 的 被 试 可 
能 受到 相同 的 外 部 支持 或 干扰 、 具 有 同样 的 学 习 
机 会 和 采用 相同 的 解 题 策略 ， 因 而 有 理由 认为 他 
们 的 作答 相似 ， 即 存在 PCE (Jiao, Kamata, Wang, 
& Jin, 2012), PCE 的 存在 使 得 样本 量 的 影响 变 小 ， 
从 而 导致 有 偏 的 参数 估计 。 为 处 理 PCE 导致 的 
LPD, Kamata (2001) 提 出 三 水 平 IRT 模型 ， 对 应 的 
层级 关系 如 图 1 所 示 。 在 EIRTM 框架 下 进行 重新 
公式 化 后 ， 可 以 得 到 LPD-1: 


Q-1 
pi = Opi + > B,X ig + Eng (10)'° 
q=0 
Q-1 
其 中 Xa 较 之 前 的 表达 略 有 改变 ， 这 表示 以 
q=0 


EA SRAC, EB 
截 距 fo, A 即 为 题目 1 与 参照 题 的 难度 之 差 ， 其 余 
以 此 类 推 ; 故 Xo 作为 题目 截 距 的 指示 变量 ， 


0 原始 公式 基于 多 层 广义 线性 模型 (Hierarchical Generalized 
Linear Model, HGLM), 对 GLMM 增加 限制 条 件 就 能 得 到 
HGLM (De Boeck & Wilson, 2004)。 此 处 保留 了 HGLM 使 

Q-1 
用 “+” 连 接 被 试 和 题目 参数 (此 时 > pau 解释 为 题目 容易 

q=0 
度 ) 并 使 用 其 中 一 个 题目 作为 参照 ( 故 下 标 从 0 开始 ， 
O-1 结束 ) 的 习惯 . 此外， 用 epg 替换 了 文献 中 表示 PCE 的 
Moog 。 这 样 处 理 的 目的 是 希望 读者 能 够 理解 EIRTM 框架 
和 HGLM 的 共性 和 符号 注释 上 的 细微 差异 .由 于 HGLM 从 
属于 GLMM 的 框架 , 也 就 是 说 多 水 平 IRT 模 型 (Multilevel Item 
Response Theory Mode1) 都 可 通过 EIRTM 构建 。 


二 
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图 1 题目 、 被 试 和 群体 的 层级 关系 图 
注 : 图 片 翻译 自 Jiao, Kamata 和 Xie (2015, p. 145) 图 5.3 


Q-1 
PEREN 1, HR > Xig 含义 不 变 。 Eng 表示 的 

q=1 
是 被 试 p 在 群体 g 中 的 PCE， 为 随机 效应 ， 
Eng ~N(0,07,); 其 余 参数 含义 不 变 。 于 是 , 被 试 p 
在 题目 7 (7#7Z) 上 的 线性 成 分 为 : 7z = 4,1 + By + 
Bite (注意 最 后 一 题 1 上 的 线性 成 分 为 7, = 
0,1+ Po+Eps )。 此 模型 表示 被 试 受到 所 属 群体 
PCE 的 影响 ,而 且 同 一 群体 中 的 被 试 受 到 的 PCE 
相同 。 
在 IRT 领 域 中 , LID 出 现 的 主要 原因 是 题 组 效 
应 (testlet effect, TE)。 题 组 是 一 组 共用 相同 刺激 材 
料 的 题目 (Wang & Wilson，2005)， 因 此 被 试 对 同 
一 题 组 中 不 同 题目 的 作答 不 再 LI， 而 存在 TE. 忽 
视 TE 会 对 测验 信和 度 、 被 试 能 力 、 题 目 难 度 、 题 
目 区 分 度 参数 以 及 DIF 分 析 造 成 影响 (Bolt，2002; 
Ip, 2000; Lee, 2004; Wainer & Lukhele, 1997; 


Wainer, Sireci, & Thissen, 1991), #1 TE 的 IRT 
模型 如 图 2 的 右 侧 三 列 所 示 ， 记 为 LID-1 (Jiao, 
Wang, & Kamata, 2005): 


Q-l D 
pi = Op + , B,X ig + ; V pala (1) 
q=0 d=l 


iq 


Q-1 
其 中 > ,Xi 同 式 (10); d 表示 题 组 (d =1,2,---,D); 
q=0 


引入 指示 变量 7 ， 当 题目 i 属于 题 组 d 时 ，7 =1, 
否则 Tg = 057 pq 表示 被 试 p TERIA d PRY TE, ypa 


D 
是 随机 效应 ， 有 7y¢~N (007, )s > % pala 可 以 表 
d=1 
示 特 定 题目 上 的 TE; 其 余 参数 含义 同上 。 假 设 题 
目 7 (7z7) 属 于 题 组 1， 题目 (kz#7) 属 于 题 组 2， 
对 被 试 p 有 : My =O + Bot By +X pope = Op + 
Bot BetVpo 。 可 见 通过 使 用 也， 研究 者 可 以 在 


图 2 内 容 、 题 目 、 被 试 和 题 组 的 层级 关系 图 
注 : 图 片 翻译 自 Jiao 等 (2015, p. 148) 图 5.5 
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EIRTM 中 灵活 定义 测验 的 结构 : 无 论 是 所 有 题目 
都 基于 题 组 构建 ， 还 是 只 有 部 分 题目 基于 题 组 构 
建 。 此 模型 表示 TE 是 基于 被 试 的 随机 效应 ， 即 不 
同 被 试 的 TE 存在 差异 。 

此 外 , 造成 LID 的 原因 还 有 可 能 是 不 同 题目 
采用 相同 的 测验 内 容 ， 即 存在 内 容 群 组 效应 
(Content Clustering Effect, CCE)。 因 此 ， 如 图 2 所 
示 , PAA TT WMA KE Fe MRE FAR, 
即 交 叉 分 类 (cross-classifiedq)。 考 虑 到 此 时 有 两 个 
造成 LID WAR, 可 称 为 双重 (dual) LID, 将 此 
模型 记 为 LID-2 (Xie, 2014; Xie & Jiao, 2014): 


a) 


Q-l D C 
1 pi = 0 + PX + Yala +> yt (12) 
q=0 d=1 c=l 


Q-1 D 
其 中 SB, X M Y yula 同 式 (14); < 表示 内 容 
q=0 


d=l 


(c=12,,C); SIAR REET, MBA i 属于 
内 容 c, Tl=1, BUT = 0y, 表示 被 试 p 在 内 容 
c 上 的 CCE, ype 是 随机 效应 及。 ~ N(0a2 ); 


其 余 参 数 含 义 不 变 。 同 样 地 ， 也 可 以 使 用 ,灵活 
定义 测验 的 内 容 结构 。 假 设 题目 j (jz7) 属 于 题 
组 1 且 属 于 内 容 1， 于 是 被 试 p 在 j (jz7) 上 的 线 
ERIK: Ny =at tE +/+ o EI 
型 中 , CCE 和 TE 都 是 基于 被 试 的 随机 效应 , 不同 
被 试 间 可 以 存在 差异 。 

最 后 , 还 可 以 将 LPD 和 LID 相 结合 ， 即 在 图 
2 右 侧 的 被 试 上 再 加 入 群体 ， 从 而 构成 最 完整 的 
LD 模型 ， 记 为 LD-1 (Jiao et al., 2015): 


Q-1 D È 
1 pi =0,,+ À PaXu + > Viala +> yo + ep (13) 
q=0 d= c=1 


其 中 的 参数 合 义 同上 。 假 设 题目 j 属于 题 组 1 且 
属于 内 容 1， 于 是 被 试 p 在 j (jz1) 上 的 线性 成 分 
为 : 7 = Op | bo t Ê; typt Ve FEpng o Eng 的 表示 
与 ya 和 yi 上 略 有 不 同 , 这 是 因为 PCE 与 TE .CCE 
不 属于 同一 个 水 平 (层次 ): (1) 对 于 PCE 而 言 , 一 
个 合理 的 抽样 设计 不 会 出 现 “ 某 些 被 试 属于 特定 
群体 ， 而 另外 一 些 被 试 不 属于 任何 群体 ”的 情况 ， 
这 样本 身 就 会 造成 被 试 的 异 质 性 ; (2) 对 于 TE 和 
CCE 而 言 , 一 个 被 试 可 能 受到 多 个 TE 和 CCE 的 
影响 ， 因 此 需要 通过 引入 指示 变量 7 和 来 表 
示 某 个 题目 上 的 作答 是 否 受到 TE 和 CCE 的 影响 以 
及 受到 哪个 题 组 或 内 容 的 影响 。 当 然 ， 若 整个 测 


验 只 涉及 一 个 题 组 和 一 个 内 容 , 那么 LD-1 可 以 
Q-1 
简化 为 : yi = Op + >》 Xu +Y palia +Ypelie + Epg © 
q=0 
Jiao 等 人 (2015) 基 于 PISA 2006 的 数据 对 LPD-1 
LID-1、LID-2 以 及 LD-1 进行 系统 的 比较 ,结果 
发 现 : (1) LD-1 模型 的 相对 拟 合 指标 最 好 ; (2) 在 
PCE TE 和 CCE 的 影响 中 , TE 影响 最 大 , PCE 最 小 。 
综 上 所 述 ， 上 述 模型 都 是 基于 随机 效应 处 理 
LD。 无论 是 LPD-1, 还 是 LID-1、LID-2， 实 际 上 
都 是 通过 随机 效应 处 理 不 同 的 LD, 这 样 可 以 提 
高 IRT 模型 参数 估计 的 准确 性 区 oziol 2016)。 实 
际 上 ,也 可 以 通过 固定 效应 处 理 题 组 造成 的 LID 
(参见 Hoskens & De Boeck, 1997)。 比 如 ,研究 者 
也 可 以 构建 类 似 3.1 和 3.2 节 呈现 的 三 类 模型 ， 以 
系统 地 讨论 TE 的 影响 。 
首先 ,这 里 仅 展 示 基 于 Rasch 模型 的 EIRTM, 
实际 上 LID 模型 可 以 轻易 拓展 至 两 参数 逻辑 斯 蒂 
克 (two parameter 1ogistic，2PL) 模 型 (Fukuhara & 
Kamata，2011)， 多 级 记分 模型 Jiao & Zhang, 
2015), 以 及 多 维 模型 (Fujimoto，2018)。 其 次 , 不 
同 测 量 情境 可 以 自由 组 合 , LD-1 是 结合 LID 和 
LPD 而 得 到 。 还 可 以 在 DIF-1 上 加 入 TE 或 PCE, 
此 类 EIRTM 相 比 传统 DIF 方法 更 具有 优势 (Jin & 
Kang, 2016; Teker & Dogan, 2015), 甚至 可 估计 题 
组 水 平 的 DIF (Paek & Fukuhara, 2015; Ravand, 
2015)。 此 外 ,已 有 人 研究 基于 真实 数据 进行 分 析 完 
形 填空 和 阅读 理解 (Baghaei & Ravand, 2016)。 总 
Z, EIRTM 的 应 用 非常 灵活 ， 研 究 者 可 以 基于 自 
身 需 要 与 前 文 提 到 的 IPE, TME, DIF 模型 相 结 
A, 构建 功能 更 为 强大 的 模型 。 


4 实例 


此 处 使 用 言语 攻击 数据 (Vansteelandt，2000) 
对 EIRTM 的 使 用 进行 说 明 。 数 据 包括 316 名 学 生 
(73 名 男生 和 243 名 女生 ) 在 24 道 题目 上 的 作答 。 
每 个 题目 对 应 一 个 情境 ,由 3 个 因素 决定 : 情境 
类 型 (本 人 责任 ,他 人 责任 )` 行 为 类 型 ( 诅 史 ,责备 ， 
轻 写 ) 和 行为 模式 (做 , 想 )。 共 有 2x2x3=12 种 情 
境 ,每 种 情境 有 2 道 题 。 具 体 如 表 1 所 示 。 

将 原始 的 三 类 作答 (“不 ”"、“ 也 许 ” 以 及 “是 ”), 
转换 为 0(“ 不 ”与 “也 许 ”) 和 1(“ 是 ”) 评 分 后 ， 基 于 
JAGS (Just Another Gibbs Sampler; Plummer, 2017) 
软件 ,采用 及 语言 “R2jags” 包 (Su & Yajima, 2015) 
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调用 控制 ， 对 此 数据 进行 分 析 。 如 需 相关 代码 ,可 P(Y,, =1) 
与 作者 联系 。 出 于 解释 的 方便 ， 所 有 模型 基于 We (F ne 
Rasch fi Alife, ERA RW 2 所 示 。 
模型 1 即 为 最 为 基本 的 Rasch 模型 ,对 应 的 0, -Xp Xy + 54M; as) 


EIRTM 为 : 


P(e 
yi = 10 {2 PUY, 1-3 -Sax u (14) 
上 式 中 记号 的 含义 与 前 文 一 致 。 ME p 在 第 1 
题 上 的 系统 成 分 为 例 ，7,, = -po, - 


B, =0, 一 (-1.162), 易 知 对 应 应 各 个 题目 的 难度 。 


模型 2 类 似 3.2 中 的 TME， 这 里 估计 的 是 行 
为 模式 效应 。 注 意 模 型 2 与 TME 的 测验 设计 有 


q iq 


{i>I} 


记号 含义 与 前 文 一 m 被 试 p 在 第 1 题 上 的 系统 
成 分 为 : na =0, -B=0, 一 (-1.148) ,而 被 试 p 在 
第 13 题 上 的 系统 成 分 为 : 77,13 = 90, — Bis + 5p, =,- 
(-1.580)+(-0.465) 。 易 知 Sn 对 应 不 同 模式 造成 的 
效应 。 

模型 3 对 应 3.3 中 的 DIF 模型 ， 出 于 说 明 的 方 
便 ， 这 里 没有 讨论 男女 组 能 力 均 值 不 同 的 情况 ， 
对 应 的 EIRTM 公式 如 下 : 


所 不 同 , 但 是 模型 是 等 价 的 。 量 表 的 前 12 道 是 ol | 
FEAL, J 12 题 是 “做 "， 这 里 直接 估计 出 行为 o Uae ) 
oo 为 -0.465( 对 应 TME-1 模型 )，EIRTM 0 yp 53 6X,Z, (16) 
: q=1 q=1 
R1 24 道 言语 攻击 题目 
题目 行为 模式 情境 类 型 行为 类 型 
辆 公交 车 没有 进 站 停靠 ,我 想 诅 咒 。 想 他 人 责任 诅咒 
一 辆 公交 车 没有 进 站 停靠 , 我 想 责备 。 想 他 人 责任 责备 
辆 公交 车 没有 进 站 停靠 , FRA 想 他 人 责任 RS 
因为 工作 人 员 给 我 错误 的 信息 ,我 错过 了 火车 ,我 想 诅 咒 。 想 他 人 责任 HSE 
因为 工作 人 员 给 我 错误 的 信息 , 我 错过 了 火车 , 我 想 责 备 。 想 他 人 责任 责备 
为 工作 人 员 给 我 错误 的 信息 , 我 错过 了 火车 , RERE, 想 他 人 责任 RS 
当 我 刚 进 入 商店 ， 商 店 就 关门 了 , 我 想 诅咒 。 想 己 责 任 HSE 
当 我 刚 进 入 商店 ， 商 店 就 关门 了 , 我 想 责 备 。 想 己 责 任 责备 
当 我 刚 进入 商店 ， 商 店 就 关门 了 , FRA 想 己 责 任 RS 
RMT WTR TT, BIA ASE Tes, 我 想 诅咒。 想 己 页 任 诅咒 
我 与 对 方 的 通话 断 了 ， 因 为 我 用 完了 话费 , 我 想 责备 。 想 己 责 任 责备 
我 与 对 方 的 通话 断 了 ， 因 为 我 用 完了 话费 , RERE 想 己 贡 任 RS 
一 辆 公交 车 没有 进 站 停靠 ， 我 会 诅咒。 做 他 人 责任 诅咒 
一 辆 公交 车 没有 进 站 停靠 ,我 会 责备 。 做 他 人 责任 责备 
一 辆 公交 车 没有 进 站 停靠 ， 我 会 怒 骂 。 做 他 人 责任 RS 
因为 工作 人 员 给 我 错误 的 信息 , 我 错过 了 火车 , 我 会 诅咒 。 做 他 人 责任 诅咒 
因为 工作 人 员 给 我 错误 的 信息 , 我 错过 了 火车 , 我 会 责备 。 做 他 人 责任 责备 
因为 工作 人 员 给 我 错误 的 信息 , 我 错过 了 火车 , KAS. 做 他 人 责任 RS 
“FRMIBEA TAG, FU RPI, RAH. 做 己 责 任 诅咒 
当 我 刚 进入 商店 ,商店 就 关门 了 ， 我 全 责备。 做 己 责 任 责备 
当 我 刚 进 入 商店 ， 商 店 就 关门 了 ,我 会 经 加 做 己 贡 任 RS 
我 与 对 方 的 通话 断 了 ， 因 为 我 用 完了 话费 ， RAHN. 做 己 责 任 诅咒 
我 与 对 方 的 通话 断 了 ， 因 为 我 用 完了 话费 , 我 会 责备 。 做 己 贡 任 责备 
我 与 对 方 的 通话 断 了 ， 因 为 我 用 完了 话费 , RAS, 做 己 责 任 RS 
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#2 24 道 言语 攻击 题目 的 固定 效应 
aA 模型 1 模型 2 模型 3 模型 4 
By By 行为 模式 By DIF 95% 置 信 区 间 By 
1 -1.162 —1.148 -1.196 -0.101 (-0.723, 0.549) 一 1.248 
2 —0.546 —0.531 -0.574 -0.104 (-0.717, 0.505) -0.584 
3 -0.091 -0.074 -0.134 -0.171 (-0.777, 0.431) -0.101 
4 -1.657 -1.641 -1.727 —0.261 (-0.934, 0.449) —1.800 
5 -0.681 —0.667 -0.729 -0.182 (-0.800, 0.433) -0.746 
6 -0.026 —0.011 —0.184 —0.684 (=1.293, -0.070) -0.031 
7 -0.512 —0.496 —0.495 0.103 (-0.507, 0.721) -0.617 
8 0.630 0.643 0.751 0.535 (-0.067, 1.151) 0.689 
9 1.430 1.451 1.338 一 0.455 (-1.153, 0.240) 1.610 
0 -1.014 —0.998 -1.071 -0.221 (-0.853, 0.415) -1.221 
11 0.312 0.329 0.362 0.231 (-0.376, 0.826) 0.354 
2 0.963 0.982 0.866 -0.454 (-1.104, 0.185) 1.132 
3 -1.145 -1.580 -0.465 -1.066 0.426 (-0.251, 1.108) -1.225 
4 —0.383 —0.820 —0.465 —0.215 0.792 (0.156, 1.420) —0.412 
5 0.820 0.381 -0.465 0.786 -0.133 (-0.767, 0.487) 0.885 
6 -0.822 -1.260 一 0.465 —0.618 1.006 (0.352, 1.706) —0.895 
7 0.035 —0.404 —0.465 0.263 1.019 (0.409, 1.648) 0.042 
8 1.372 0.933 -0.465 1.422 0.222 (-0.417, 0.879) 1.498 
9 0.200 —0.240 —0.465 0.393 0.864 (0.280, 1.481) 0.199 
20 1.390 0.956 —0.465 1.579 0.750 (0.093, 1.390) 1.563 
21 2.711 2.277 -0.465 2.775 0.244 (-0.615, 1.062) 3.034 
22 -0.660 -1.106 -0.465 -0.548 0.568 (-0.068, 1.205) -0.801 
23 0.363 -0.080 -0.465 0.488 0.546 (-0.059, 1.146) 0.416 
24 1.867 1.427 -0.465 1.799 -0.359 (-1.138, 0.375) 2.202 


这 里 将 女性 作为 参照 组 (Ze =0)， 男 性 作为 目标 
HZ, =1) PUKE p 在 题目 1 上 的 系统 成 分 为 : 
Ny, = 9, — B = 9, —(-1.196), 男性 m 在 题目 1 上 的 


系统 成 分 为 : 


Ami = On -$ = A, —(-1.196)+ 
(0.101). óp 对 应 题目 的 DIF 效应 量 , 结合 提供 
的 95% 的 置信 区 间 ， 就 可 以 直接 判断 Sy 是 否 显 


著 。 此 处 , 第 6、14、16、17、19、20 题 的 DIF 


同 ,以 第 1 个 内 容 为 例 ，y ~ N(0.004.0442) 。 当 
具体 到 被 试 1 在 题目 1 上 的 作答 时 , JAGS 可 以 估 
B yii 的 值 为 -0.398， 系统 成 分 为 : m,=4- 


id 


Pi +i =9 —(-1.248)+ (0.398); 被 试 1 在 题目 2 


上 ff 


FE 答 时 ， 由 于 属于 同一 个 内 容 ， 系 统 成 分 为 : 


thr = 9 — By + 711 =9, —(-0.584) + (—0.398) 。 
最 后 ,值得 一 提 的 是 JAGS 采用 的 是 贝 叶 斯 


效应 显著 。 
模型 4 考虑 的 是 3.4 中 提 到 的 CCE， 对 应 的 
EIRTM 如 下 : 


P(Y,, =1) 


Dpi = oe e 7 = 
0 C 
0, -2 pat Dy 
g=1 c=l 


由 表 4 易 知 量 表 的 内 容 ( 题 干 ) 能 够 归 为 4 类 ， 对 应 
4 个 随机 效应 yro 。 不 同 被 试 在 不 同 内 容 上 的 pe 都 不 


(17) 


方法 ,可 以 通过 离 差 信息 指数 (Deviance Information 
Criterion，DIC) 来 评估 模型 的 整体 拟 合 情 况 ，DIC 
越 小 说 明 模 型 的 预测 能 力 越 好 。 这 4 个 模型 中 , 模 
型 3 的 DIC 最 小 (DIC = 7855.3)， 即 拟 合 最 好 。 


5 ”讨论 与 展望 

将 EIRTM 用 于 测量 不 变性 研究 
本 文 的 第 3 部 分 详细 介绍 了 如 何 使 用 EIRTM 
检测 IPE、TME 以 及 DIF, 这 些 都 反映 EIRTM 能 
够 方便 地 人 处理 测量 不 变性 问题 IPE 是 题目 位 置 


5.1 
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对 测量 不 变性 的 影响 TME 是 测验 形式 对 测量 不 
变性 的 影响 ,DIEF 是 受 测 群体 对 测量 不 变性 的 影 
响 。 通 过 EIRTM 处 理 测 量 不 变性 问题 可 以 解决 传 
He IRT 方法 ( 即 “ 两 步 法 ”) 的 困境 : 如果 测量 不 变性 
不 满足 , 那么 RT 得 到 的 参数 估计 本 身 就 是 有 偏 
的 ; 基于 有 偏 的 参数 估计 ， 并 不 能 得 到 可 信 的 结 
果 。 因 此 即使 基于 “两 步 法 ”证 明 数 据 满 足 测量 
不 变性 , 也 有 可 能 是 不 准确 的 参数 估计 造成 的 。 

此 外 ,EIRTM 可 以 构建 全 面 的 测量 不 变性 模 
型 ,得 到 尽 可 能 准确 的 参数 估计 结果 。 读 者 可 能 
已 经 意识 到 ， 鉴 于 EIRTM 的 灵活 性 , 可 以 将 第 3 
部 分 中 提 到 的 模型 进行 整合 ， 得 到 一 个 既 能 估计 
IPE.TME 和 DIF, 又 考虑 LD 的 模型 。 换 言 之 ， 只 
要 符合 研究 实际 ， 研 究 者 可 以 一 步 到 位 ， 同 时 处 
理 多 个 测量 问题 。 

最 后 ， EIRTM 可 以 将 测量 不 变性 问题 与 解释 
性 分 析 相 结合 ， 也 即 在 估计 IPE, TME 或 DIF 的 
同时 ， 也 考虑 被 坛 和 题目 特征 的 影响 。 此 类 模型 
能 够 通过 控制 测量 不 变性 的 相关 效应 ， 得 到 更 为 
准确 的 被 坛 和 题目 效应 ; 反之 亦 然 。 实 际 上 ， 
DIF-1 就 是 在 控制 组 别 的 固定 效应 后 ， 再 估计 DIF 
效应 。 
5.2 ”通过 EIRTM 构建 综合 性 的 分 析 框 架 
EIRTM 提供 一 个 统一 而 灵活 的 IRT 模型 框架 ， 
且 越 来 越 受 到 研究 者 重视 。 受 限于 篇 幅 和 主旨 ， 
本 文 没 法 更 全 面 地 展示 EIRTM 与 现 有 IRT 模 型 的 
转换 关系 ， 除 本 文 涉及 的 模型 外 ,使 用 EIRTM 还 
可 以 建构 多 级 记分 的 IRT 模型 和 多 维 IRT 模型 、 
动态 Rasch 模型 (Dynamic Rasch Models) 纵向 了 IRT 
模型 以 及 含 反 应 时 的 IRT 模型 等 等 (参见 De 
Boeck & Wilson, 2004; Klein Entink, Kuhn, Hornke, 
& Fox, 2009; Rijmen et al., 2003; Wilson, Zheng, & 
McGuire, 2012). VA EIRTM 为 代表 的 广义 建 模 方 
法 (Generalized Modeling Approaches) FAA ig £ iù 
越 性 ， 目 前 已 经 得 到 业内 研究 者 的 重视 。 在 新 编 
著 的 《项 目 反应 理论 手册 (第 一 卷 ): 模型 (Handbook of 
Item Response Theory, Volume One: Models; van der 
Linden，2016) 的 最 后 一 部 分 ， 专 门 介绍 了 4 种 广 
义 建 模 方法 ,这 值得 国内 研究 者 重视 。 
此 外 ，EIRTM 还 体现 了 IRT 模型 和 回归 模型 
的 共性 。 传 统 的 心理 和 教育 测量 领域 中 ,很 少 有 
研究 者 注意 到 回归 模型 、 GLM、HLM 和 IRT 模型 
之 间 的 联系 : 在 回归 模型 的 基础 上 , 加 入 随机 效 


应 ， 可 以 推广 至 HLM; 引入 连接 函数 ， 可 以 得 到 
GLM; 同时 加 入 随机 效应 和 连接 函数 ， 可 以 得 到 
EIRTM。 这 一 综合 的 分 析 框 架 , 不 仅 有 助 于 人 研究 
者 深入 认识 以 IRT 为 代表 的 现代 测量 理论 与 经 典 
归 分 析 的 联系 , 也 有 利于 相应 的 教学 和 实践 活动 。 
5.3 EIRTM 的 应 用 前 景 与 不 足 

EIRTM 具有 广阔 的 应 用 前 景 ， 可 以 广泛 应 用 
于 心理 和 教育 测量 领域 中 。 除 了 上 文 所 述 的 通过 
EIRTM 建构 合理 的 测量 模型 以 外 , EIRTM 还 可 用 
于 分 析 复 杂 表 现任 务 (complex performance task). 
对 于 复杂 表现 任务 进行 评价 ， 是 教育 与 心理 测量 
领域 面临 的 新 挑战 (Mislevy，2016)。 比 如 ，PISA 
2015 就 使 用 合作 问题 解决 任务 ， 以 展示 学 生 在 动 
态 、 交 互 情 景 中 的 表现 (OECD, 2017b)。EIRTM 以 
其 灵活 的 框架 为 评价 复杂 表现 任务 提供 了 一 种 解 
决 思路 ,通过 EIRTM 可 以 将 涉及 的 任务 属性 的 特 
征 纳入 模型 ， 从 而 得 到 被 试 能 力 的 准确 估计 。 

当然 EIRTM 也 存在 一 些 问 题 : (1) 算法 比较 
复杂 ,运算 时 间 相 对 较 长 。 对 于 蒙特 卡 洛 (Monte 
Carlo) 模 拟 研 究 以 及 自 适应 测验 而 言 ， 只 能 尝试 
通过 提高 计算 机 的 计算 性 能 来 改进 效率 。 但 是 对 
于 不 需要 重复 的 应 用 研究 来 说 ， 现 有 软件 的 运行 
速度 基本 可 以 接受 ; (2) EIRTM 的 使 用 对 数学 能 力 
和 编程 能 力 要 求 较 高 ， 这 不 太 利 于 一 般 研 究 者 的 
使 用 。EIRTM 涉及 的 算法 比较 复杂 ， 非 统计 学 / 
数学 专业 的 研究 者 不 容易 理解 ; 而 且 目 前 没有 简 
单 易 用 的 专用 软件 可 供 使 用 ， 必须 由 研究 者 自己 
编写 程序 ， 并 设 定 模 型 参数 。 总 之 , 尽管 EIRTM 
也 存在 一 些 不 足 , 但 是 考虑 到 EIRTM 的 重要 理论 
意义 与 应 用 价值 , 未 来 必定 能 在 测量 领域 大 有 作为 。 
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Abstract: Explanatory item response theory models (EIRTM) refer to a family of item response theory (IRT) 
models that are constructed based on the generalized linear mixed models and nonlinear mixed models. 
EIRTM can be utilized to address various measurement problems by incorporating predictors into IRT 
models. First, the relevant concepts and parameter estimation methods of EIRTM are introduced in this 
paper, followed by the procedures regarding how to use EIRTM to account for the item position effect, test 
mode effect, differential item functioning, local person dependence, and local item dependence. Next, an 
example is provided to illustrate the use of EIRTM. Finally, the shortcomings and potential applications of 
EIRTM are discussed. 
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